SparkStreaming消费kafka中数据的方式有哪些？他们有什么区别？

2023-07-03 04:48| 来源: 网络整理| 查看: 265

前置知识点：

discretized Stream 是ss里面最基础的一个抽象，代表着一个以时间为键的RDD序列。将时间作为键，RDD作为值的一个hash表，反映着持续性的数据流和经过各种spark原语操作而得出的结果数据流。

1.receiver接收器方式使用kafka里面的一个高级API，将生产的数据放在receiver里面包装成DS进行处理，而receiver不断接受数据存放在executor内存里面，所有数据存放在spark中executor内存，但失败的情况下回丢失数据，为了容错，可以考虑启用WAL日志（存储在HDFS上），缺点是WAL日志相当于复制了一份数据，kafka本身也有备份机制，故数据冗余。

2.direct 方式绕过 receiver接收器周期性查询kafka，根据kafka里面partition和topic的最新offset，当job启动时，直接读取一定范围的数据并将数据包装成DS给到SS处理，即ss不存放数据，而是在处理过程中直接使用

区别：

1.receiver方式依赖zookeeper记录偏移量，那么与SS的偏移量记录可能会存在不一致的情况，且WAL日志相当于复制了一份数据，kafka本身也有备份机制，故数据冗余。

direct的优点

（1）简化并行

receiver方式会创建多个kafka输入流，而direct方式实现了 spark分区和kafka分区一一对应，从kafka并行读取数据，便于理解。

（2）高效

省去WAL复制数据。

（3）exactly once semantic

direct方式是直接在SS中记录checkpoint

【本文地址】

公司简介

联系我们